Plusieurs extraits de jeux vidéoCrédits : DeepMind

Google entraine une IA dans l’univers des jeux vidéo

Qu'ils l'envoient dans le metavers

Avatar de l'auteur
Martin Clavey

Publié dans

IA et algorithmesSociété numérique

15/03/2024 5 minutes
6

Plusieurs extraits de jeux vidéoCrédits : DeepMind

DeepMind, le laboratoire de recherche de Google, a créé une IA capable de suivre des instructions dans un jeu vidéo. L'idée, ici, n'est pas de proposer une IA capable de réussir un jeu le plus rapidement ou le mieux possible, mais de créer un robot capable d'adapter son comportement à l'univers dans lequel il évolue.

SIMA, c'est le nom de cette nouvelle IA de Google, pour Scalable Instructable Multiworld Agent. Celle-ci est capable de « suivre des instructions en langage naturel pour effectuer des tâches dans divers contextes de jeux vidéo », explique DeepMind.

Le laboratoire de Google change sa façon d'utiliser les jeux pour améliorer ses IA. L'idée n'est plus d'essayer de battre des humains à des jeux comme les échecs, le Go ou StarCraft II. Ça, c'est possible depuis quelques années déjà.

Exit le but du jeu à atteindre. Maintenant, les chercheurs de DeepMind s'appuient sur les jeux vidéo comme bacs à sable pour travailler sur la mise en place d'intelligences artificielles qui pourraient s'adapter aux mondes dans lesquels elles évoluent tout en suivant les instructions d'un humain.

Derrière, leur envie est de créer une plateforme de recherche qui permette de travailler sur la connexion entre les grands modèles de langage (popularisés par ChatGPT) et le « monde incarné que nous habitons ».

Le jeu vidéo comme terrain d'expérimentation

Avec SIMA, « nous nous concentrons sur les jeux qui ressemblent le plus à une incarnation physique en 3D, en particulier les jeux où le joueur interagit avec un monde en 3D à partir d'une vue à la première personne ou d'une vue au-dessus de l'épaule », expliquent les chercheurs de Google dans leur « rapport technique » [PDF]. Ce n’est pas vraiment un article scientifique, bien qu'il y ressemble dans la forme.

Pour mettre en place SIMA, DeepMind s'est associé avec huit studios de jeux vidéos pour que l'« agent » puisse apprendre à évoluer dans divers univers de jeu. Ils ont pu accéder à neuf univers virtuels de jeux vidéo commerciaux dont, par exemple, celui de No Man's Sky de Hello Games, Teardown de Tuxedo Labs ou Goat Simulator 3 d’Epic. Pour compléter le panel, ils ont aussi utilisé quatre environnements de recherche.

Tous ces jeux permettent aux chercheurs de proposer des mondes différents dans lesquels leur IA pourra évoluer. Mais, surtout, ces environnements sont asynchrones : ils ne s'arrêtent pas pour attendre le calcul d'une action.

Et SIMA n'a aucune API spéciale pour accéder au jeu, elle utilise les mêmes commandes de clavier et de souris que les humains. Elle n'a pas d'information privilégiée sur le monde qu'elle parcourt, les seules informations proviennent de l'image.

« Clonage comportemental »

L'approche des chercheurs de DeepMind pour que SIMA fasse des actions dans ces environnements est de l'entrainer en faisant ce qu'ils appellent du « clonage comportemental », c'est-à-dire de l'apprentissage supervisé, de la correspondance entre ce qu'il se passe dans l'univers du jeu et les actions décidées par des humains lorsqu'ils jouent.

Ils ont donc payé des travailleurs de la donnée (les chercheurs ne fournissent aucun détail sur le prix payé pour les tâches effectuées) pour que ceux-ci évoluent dans les jeux en faisant certaines actions. Ils devaient ensuite annoter les vidéos qui en résultaient avec les instructions qui correspondent à ces actions. Par exemple, dès que leur personnage lâchait un objet, le travailleur devait étiqueter le moment de la vidéo avec « drop object ».

D'autres créations de données ont consisté à un travail en binôme dans lequel l'un donnait des instructions suivant des scénarios pré-établis pendant que l'autre parcourait le monde virtuel d'un jeu. Ceci a permis à DeepMind d'étiqueter 600 « compétences de base » qui prennent moins de 10 secondes comme « tourner à gauche », « ouvrir la carte » ou « monter à l'échelle ». Elles sont décomposées comme sur le schéma ci-dessous :

Espoir d'actions plus complexes

Cet entrainement permet de mettre en place les modèles de vision de SIMA : l'un permet de faire une cartographie linguistique précise des images et l'autre fait des prédictions sur ce qu'il se passera ensuite à l'écran. DeepMind utilise aussi d'autres modèles de vision déjà développés auparavant, ainsi qu'un système permettant de gérer les actions au clavier et à la souris.

Dans son fonctionnement actuel, SIMA arrive à suivre, dans le jeu vidéo dans lequel on l'a propulsé, des instructions simples. Les chercheurs de DeepMind ont observé que, entrainée sur tous les jeux, SIMA est meilleur que si elle a été entrainée sur un seul.

De même, dans un environnement 1, un agent SIMA ayant été entrainé uniquement pour celui-ci sera moins bon qu'un autre entraîné dans les environnements 2, 3, 4, 5, 6 et 7.

DeepMind espère pouvoir ensuite lui faire élaborer des actions plus complexes comme « trouver des ressources et construire un camp ».

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Le jeu vidéo comme terrain d'expérimentation

« Clonage comportemental »

Espoir d’actions plus complexes

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (6)


« Son système apprend à apprendre »

Ils vont l’appeler Joshua ? :mrgreen:

Mais attention : ça commence comme un simple jeu, et ça peut finir en guerre mondiale… 😢
Modifié le 15/03/2024 à 14h27

Historique des modifications :

Posté le 15/03/2024 à 14h24


« Son système apprend à apprendre »

Ils vont l’appeler Joshua?useskin=vector) ? :mrgreen:

Mais attention : ça commence comme un simple jeu, et ça peut finir en guerre mondiale… 😢

Posté le 15/03/2024 à 14h24


« Son système apprend à apprendre »

Ils vont l’appeler Joshua) ? :mrgreen:

Mais attention : ça commence comme un simple jeu, et ça peut finir en guerre mondiale… 😢

Quand ce sera au point, ils l'entraineront dans un fps, puis un simulateur de gestion d'usine, et Skynet sera prêt ! :stress::transpi:
Je vois qu'il y a déjà satisfactory dedans donc...
On écrit "jeux vidéo" sans s à vidéos. ;)
Effectivement. Merci :)